NetKV: Instancias de decodificación conscientes de red para LLMs desagregados
NetKV reduce hasta un 21.2% el tiempo hasta el primer token en inferencia LLM desagregada, superando schedulers tradicionales sin cambios en hardware.
NetKV reduce hasta un 21.2% el tiempo hasta el primer token en inferencia LLM desagregada, superando schedulers tradicionales sin cambios en hardware.